Hadoop:适合大数据的分布式存储与计算平台(第三讲) |
您所在的位置:网站首页 › hadoop 分布式计算 › Hadoop:适合大数据的分布式存储与计算平台(第三讲) |
Hadoop:适合大数据的分布式存储与计算平台(第三讲)
发布时间:2020-07-18 20:55:21
来源:网络
阅读:1445
作者:51_天天向上
栏目:大数据
1.hadoop: 作者:Doug Cutting 受Google三篇论文的启发 2.版本: Apache: 官方版本(1.1.2),学习使用 Cloudera:在apache版本的基础上添加功能,实现商业用途 Yahoo:现在已经集中在apache的版本上 3.hadoop的核心项目 HDFS:(Hadoop Distributed File System) 分布式文件系统 MapReduce:并行计算框架 4.HDFS的架构(主从结构中,主节点负责管理。从节点负责操作) 主从结构(只有一个主节点namenode,可以有很多个从节点datanodes) namenode负责: 接收用户的操作请求 维护文件系统的目录结构 管理文件与block之间的关系,block与datanode之间的关系 datanode负责: 存储文件 文件被分成block存储在磁盘上 为保证数据安全,文件会有多个副本 5.MapReduce的架构 主从结构(只有一个主节点JobTracker,可以用很多个从节点TaskTrackers) JobTracker负责: 接收客户提交的计算任务 把计算任务分给TaskTracker执行 监控TaskTracker的执行情况 TaskTrackers负责: 执行JobTracker分配的计算任务 6.Hadoop的特点: 扩容能力(Scalable):能可靠地存储和处理千兆字节(PB)数据; 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据; 高效率(Efficient):通过分发数据,hadoop可以在数据的所在节点上并行处理; 可性靠(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动重新部署计算任务 7.Hadoop集群的物理分布 说明: a.下方的Rack分别表示两个机柜,分别存放多个服务器,左右两机柜都连接有自己的交换机,左右两个交换机又和总的交换机连接,所以,机柜上的各个服务器之间可以互相访问; b.机柜上两个主节点分别都独占一台服务器,而从节点组合在一起存放在一台服务器上 8.单节点物理结构
说明:左右图分别表示主节点和从节点,图中主从节点都使用linux系统的服务器,并且都运行在java虚拟机上,因为hadoop是基于java开发的 9.Hadoop部署方式 本地部署(不常用) 伪分布模式(学习使用) 集群模式(公司使用) 10.安装前准备软件 VitualVox centos jdk-6u24-linux-xxx.bin hadoop-1.1.2.tar.gz 11.伪分布模式安装步骤:(6步) 关闭防火墙 修改ip 修改hostname 设置ssh自动登录 安装jdk 安装hadoop 免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:[email protected]进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。 hadoop介绍 第三 三讲 上一篇新闻:UIKit框架(17)Quartz2D 下一篇新闻:Oracle 学习之 性能优化(十四) 内存 10000元红包免费领红包可用于(云服务器、高防服务器、裸金属服务器、高防IP、云数据库、CDN加速)购买和续费 猜你喜欢 大数据中正则化方法、dropout、数据集扩增的示例分析 Spark如何快速构建数仓项目 Hive性能调优中Fetch抓取的示例分析 大数据中常见的网站反爬策略与解决方案是什么 R语言ggplot2如何实现坐标轴放到右边、更改绘图边界和数据分组排序 Python岗位技能要求有哪些 Python编辑器有哪些优缺点 Redash中怎么自定义样式 python怎么模拟EM算法 Python如何实现海贼王的歌词组成词云图 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |